Vés al contingut

Mamba (arquitectura d'aprenentatge profund)

De la Viquipèdia, l'enciclopèdia lliure

Mamba és una arquitectura d'aprenentatge profund centrada en el modelatge de seqüències. Va ser desenvolupat per investigadors de la Universitat Carnegie Mellon i la Universitat de Princeton per abordar algunes limitacions dels models de transformadors, especialment en el processament de seqüències llargues, i es basa en el model de seqüència d'espai d'estat estructurat (S4).[1][2]

Arquitectura

[modifica]

Per permetre el maneig de seqüències de dades llargues, Mamba incorpora el model de seqüència d'espai d'estat estructurat (S4). S4 pot modelar de manera eficaç i eficient les dependències llargues combinant els punts forts dels models de temps continu, recurrents i convolucionals, que li permeten gestionar dades mostrejades de manera irregular, tenir un context il·limitat i mantenir una eficàcia computacional tant durant l'entrenament com durant les proves.[3]

Mamba, basant-se en el model S4, introdueix millores significatives, especialment en el tractament de les operacions amb variants temporals. La part central del seu disseny és un mecanisme de selecció únic que adapta els paràmetres del model d'espai d'estats estructurat (SSM) en funció de l'entrada.[4] Això permet a Mamba centrar-se selectivament en la informació rellevant dins de les seqüències, filtrant eficaçment les dades menys pertinents. El model passa d'un marc invariant en el temps a un marc variable en el temps, cosa que afecta tant el càlcul com l'eficiència del sistema.[5]

Per abordar els reptes computacionals introduïts per aquesta variació temporal, Mamba utilitza un algorisme conscient del maquinari. Aquest algorisme permet un càlcul eficient en maquinari modern, com ara les GPU, utilitzant la fusió del nucli, l'exploració paral·lela i la recomputació. La implementació evita materialitzar estats expandits en capes intensives en memòria, optimitzant així el rendiment i l'ús de la memòria. El resultat és una arquitectura que és significativament més eficient en el processament de seqüències llargues en comparació amb mètodes anteriors.[6]

A més, Mamba simplifica la seva arquitectura integrant el disseny SSM amb blocs MLP, donant com a resultat una estructura homogènia i racionalitzada, augmentant la capacitat del model per al modelatge de seqüències generals en diversos tipus de dades, inclosos el llenguatge, l'àudio i la genòmica, alhora que es manté l'eficiència en els dos entrenaments. i inferència.

Variants

[modifica]

MoE-Mamba integra l'arquitectura Mamba amb una capa de barreja d'experts (MoE). Aquesta combinació permet una implementació més eficient, permetent que el model assoleixi un rendiment comparable a Mamba amb 2,2 vegades menys passos d'entrenament i mantenint els guanys de rendiment d'inferència de Mamba sobre transformadors. El disseny del model implica alternar capes Mamba i MoE, cosa que li permet integrar de manera eficient tot el context de la seqüència i aplicar l'expert més rellevant per a cada testimoni.

Referències

[modifica]
  1. Chowdhury, Hasan. «The tech powering ChatGPT won't make AI as smart as humans. Others might.» (en anglès). Business Insider. [Consulta: 13 gener 2024].
  2. Pandey, Mohit. «Mamba is Here to Mark the End of Transformers» (en anglès). Analytics India Magazine, 06-12-2023. [Consulta: 13 gener 2024].
  3. Gu, Albert; Goel, Karan; Re, Christopher (en anglès) ICLR, 06-10-2021 [Consulta: 13 gener 2024].
  4. Gu, Albert; Johnson, Isys; Goel, Karan; Saab, Khaled Kamal; Dao, Tri NeurIPS, 26-10-2021.
  5. Tickoo, Aneesh. «Researchers from CMU and Princeton Unveil Mamba: A Breakthrough SSM Architecture Exceeding Transformer Efficiency for Multimodal Deep Learning Applications» (en anglès). MarkTechPost, 10-12-2023. [Consulta: 13 gener 2024].
  6. Tickoo, Aneesh. «Researchers from CMU and Princeton Unveil Mamba: A Breakthrough SSM Architecture Exceeding Transformer Efficiency for Multimodal Deep Learning Applications» (en anglès). MarkTechPost, 10-12-2023. [Consulta: 13 gener 2024].